Machine Learning Activation Functions: Sigmoid, Tanh, ReLU গাইড ও নোট

312

Activation functions নিউরাল নেটওয়ার্কের অত্যন্ত গুরুত্বপূর্ণ অংশ। তারা ইনপুট সিগন্যালকে আউটপুট সিগন্যালের মধ্যে রূপান্তরিত করে, এবং মডেলকে non-linearity প্রদান করে, যা নেটওয়ার্ককে আরও শক্তিশালী এবং জটিল প্যাটার্ন শিখতে সহায়তা করে। এখানে তিনটি জনপ্রিয় activation function — Sigmoid, Tanh, এবং ReLU (Rectified Linear Unit) এর আলোচনা করা হলো।


১. Sigmoid Activation Function

Sigmoid ফাংশন একটি সিগময়েডাল আকারের curve তৈরি করে, এবং এটি একে "logistic function" হিসেবেও পরিচিত। Sigmoid ফাংশনের ইনপুট যেকোনো সংখ্যা হতে পারে, কিন্তু আউটপুট সবসময় 0 এবং 1 এর মধ্যে থাকে। এটি সাধারণত বাইনারি ক্লাসিফিকেশন সমস্যায় ব্যবহৃত হয়।

ফর্মুলা:

σ(x)=11+ex\sigma(x) = \frac{1}{1 + e^{-x}}

এখানে xx হলো ইনপুট এবং ee হলো ন্যাচারাল লগের বেস।

বৈশিষ্ট্য:

  • আউটপুট: (0,1)(0, 1) এর মধ্যে।
  • মাইনাস ইনফিনিটি থেকে প্লাস ইনফিনিটি পর্যন্ত ইনপুট নিলে আউটপুট 0 এবং 1 এর মধ্যে পরিবর্তিত হয়।
  • এটি একটি সিমেট্রিক curve, যা ধীরে ধীরে 0 এবং 1 এর কাছাকাছি পৌঁছায়।
  • Vanishing Gradient Problem: এটি প্রায়ই হারিয়ে যাওয়া গ্রেডিয়েন্ট সমস্যায় ভোগে, বিশেষ করে গভীর নিউরাল নেটওয়ার্কের মধ্যে।

ব্যবহার:

Sigmoid সাধারণত লজিস্টিক রিগ্রেশন এবং বাইনারি ক্লাসিফিকেশনের ক্ষেত্রে ব্যবহৃত হয়, কারণ আউটপুট 0 বা 1 এর মধ্যে থাকে।


২. Tanh (Hyperbolic Tangent) Activation Function

Tanh ফাংশন একটি সিগময়েডাল ফাংশন, তবে এর আউটপুট রেঞ্জ (1,1)(-1, 1) এর মধ্যে থাকে। এটি সিগময়েডের মতোই কাজ করে, কিন্তু আউটপুট ভ্যালু নেতিবাচকও হতে পারে, যা নেটওয়ার্কে better convergence প্রদান করতে সহায়তা করে।

ফর্মুলা:

tanh(x)=exexex+ex\tanh(x) = \frac{e^x - e^{-x}}{e^x + e^{-x}}

এখানে xx হলো ইনপুট।

বৈশিষ্ট্য:

  • আউটপুট: (1,1)(-1, 1) এর মধ্যে।
  • Symmetric around zero: এটি সিমেট্রিক্যাল ফাংশন, যার মানে ইনপুট 0 হলে আউটপুট 0 হবে।
  • এটি পজিটিভ এবং নেগেটিভ ভ্যালুগুলি প্রতিস্থাপন করে, যা শেখার প্রক্রিয়াকে দ্রুত করতে পারে।
  • Vanishing Gradient Problem: এটি আবারও ছোট গ্র্যাডিয়েন্টের সমস্যা সৃষ্টি করতে পারে যদি ইনপুট বেশি বড় হয়।

ব্যবহার:

Tanh ফাংশন সাধারাণত hidden layers এ ব্যবহৃত হয়, যেখানে এর সিমেট্রিক্যাল প্রপার্টি এবং -1 এবং 1 এর মধ্যে আউটপুট থাকার সুবিধা থাকে।


৩. ReLU (Rectified Linear Unit) Activation Function

ReLU ফাংশন হল একটি লাইনার ফাংশন যা ইনপুট যদি পজিটিভ হয়, তাহলে আউটপুট সেই ইনপুটের সমান, এবং যদি ইনপুট নেগেটিভ হয়, তবে আউটপুট শূন্য (0)। এটি নিউরাল নেটওয়ার্কে সবচেয়ে জনপ্রিয় activation function হিসাবে পরিচিত।

ফর্মুলা:

ReLU(x)=max(0,x)ReLU(x) = \max(0, x)

এখানে xx হলো ইনপুট।

বৈশিষ্ট্য:

  • আউটপুট: [0,)[0, \infty) এর মধ্যে।
  • ইনপুট নেগেটিভ হলে আউটপুট 0 হয়, এবং পজিটিভ হলে আউটপুট ইনপুটের সমান থাকে।
  • Computationally efficient: এটি খুবই কম্পিউটেশনে দক্ষ এবং দ্রুত কাজ করে, কারণ এটি কেবল ইনপুটের তুলনা করে।
  • Sparsity: এটি একটি sparse representation তৈরি করে, অর্থাৎ অনেক নিউরন অক্ষম থাকে (0 এর মান).
  • Dying ReLU Problem: ReLU যদি খুব বড় ইনপুট পায় তবে এটি কার্যকরী নাও হতে পারে, কারণ এই ইনপুটগুলির জন্য গ্র্যাডিয়েন্ট শূন্য হয়ে যেতে পারে।

ব্যবহার:

ReLU বর্তমানে সবচেয়ে জনপ্রিয় activation function, বিশেষ করে deep learning এবং convolutional neural networks (CNNs) এ। এটি দ্রুত convergence প্রদান করে এবং কম্পিউটেশনে খুবই দক্ষ।


সারাংশ

  • Sigmoid ফাংশন 0 এবং 1 এর মধ্যে আউটপুট দেয় এবং সাধারণত বাইনারি ক্লাসিফিকেশন টাস্কে ব্যবহৃত হয়, তবে এটি Vanishing Gradient Problem সৃষ্টি করতে পারে।
  • Tanh ফাংশন -1 এবং 1 এর মধ্যে আউটপুট দেয় এবং এটি সিগময়েডের তুলনায় আরও কার্যকরী হতে পারে, তবে এটি এখানেও Vanishing Gradient Problem তৈরি করতে পারে।
  • ReLU হল সবচেয়ে কার্যকরী activation function, যা সাধারণত deep learning মডেলগুলিতে ব্যবহৃত হয়। এটি দ্রুত ট্রেনিং করতে সহায়ক, তবে এতে Dying ReLU Problem হতে পারে।

এগুলো তিনটি activation function এর নিজস্ব সুবিধা এবং অসুবিধা রয়েছে, এবং আপনাকে নির্দিষ্ট কাজ বা মডেলের জন্য সঠিকটি নির্বাচন করতে হবে।

Content added By
Promotion

Are you sure to start over?

Loading...